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摘 要 : [目的 /意义 ] 由 于 新 兴 技 术 本 身 的 超前 性 ,其 刚 出 现 的 关注 度 往往 不 是 很 高 。 目 前 研究 更 多 遵循 技术 发 展 路 径 依 
赖 进行 新 兴 技 术 的 识别 ,会 忽略 一 些 颠 履 现 有 技术 轨道 的 技术 研发 。 通 过 对 与 领域 内 主流 技术 相似 度 较 低 的 离 
群 专利 进行 分 析 , 可 以 更 有 效 地 识别 这 类 技术 研发 并 预测 新 兴 技 术 。 [ 方法 过程] 提出 一 种 基于 深度 学 习 的 离 群 
专利 识别 与 新 兴 技术 预测 方法 。 首 先 使 用 BERT 预 训练 模型 基于 专利 文本 构建 相似 度 网 络 , 识 别离 群 专利 ,然后 


基于 DNN 模型 构建 离 群 专利 指标 与 技术 影响 力 之 间 的 关系 ,实现 从 海量 离 群 专利 中 快速 、 准 确 地 预测 新 兴 技 术 。 
最 后 以 数控 系统 领域 为 例 , 从 德 温 特 专利 数据 库 获取 近 10 年 领域 内 所 有 专利 ,进行 实证 分 析 。 | 结果 /结论 ] 数控 
系统 领域 的 实证 分 析 结 果 验 证 了 模型 的 有 效 性 ,同时 对 国家 的 技术 发 展 政策 制定 以 及 相关 领域 企业 技术 布局 具 


^ az 
> 
O 
品 
C) 有 重要 的 指导 意义 。 
ER: 新 兴 技术 深度 学 习 ” 离 群 专利 数控 系统 
AP 5: G250 
c 10. 13266/j. issn. 0252 —3116. 2021. 17. 013 
N 
1ON5| & 
> 


.一 十 九 届 五 中 全 会 指出 ,加快 发 展现 代 产业 体系 , 扒 
al US (LTEM e, 新兴 
EREHE "Ier" BOR Jette ego 
业 的 重要 支撑 "1 。 其 有 可 能 颠覆 现 有 的 技术 体系 和 原 
有 人 的 技术 范式 ,使 现 有 的 产品 ` 工 艺 或 服务 具有 前 所 未 
有 的 性 能 ,或 者 实现 现 有 性 能 的 大 幅 提高 并 降低 成 
本 ”。 新 兴 技术 对 市 场 规则 .竞争 态势 .产业 边界 具有 
决定 性 的 影响 ,其 至 可 能 引起 产业 的 重新 洗 牌 ””。 因 
此 ,新 兴 技 术 预 测 对 国家 ,企业 等 各 个 层面 的 技术 布局 
和 战略 制定 具有 重要 意义 。 

新 兴 技 术 在 短期 内 快速 发 展 ,具有 高 度 不 确定 性 
在 未 来 极 有 可 能 推动 技术 进步 , 且 具 有 较 大 社会 影响 
力 ” 。 现 有 大 部 分 研究 以 技术 发 展 路 径 依赖 为 基础 识 
别 新 兴 技 术 ,关注 于 主流 技术 轨道 中 的 热点 .前 沿 技 


术 。 由 于 其 超前 性 ,新 兴 技 术 很 可 能 脱离 原 有 的 主流 
技术 轨道 ,并且 在 短 时 间 内 难以 完成 技术 转化 ,而 在 未 
来 会 对 行业 发 展 作出 极 大 贡献 ”。 比 如 中 国 科学 院 过 
程 工 程 研究 所 于 1998 年 获得 授权 的 一 项 可 降低 废气 
排放 的 解 耦 燃烧 技术 “ , 当时 人 们 尚未 意识 到 所 氧化 
物 排放 的 危害 ,导致 该 专利 成 果 于 2017 年 才 得 到 大 也 
积 推广 应 用 。 日 本 佳能 公司 于 1982 年 申请 打印 机 液 
体 喷 射 记录 头 专利 ” ,然而 当时 喷 墨 打印 机 尚未 进入 
主流 市 场 ,直到 1990 年 该 专利 才 开 始 出 现 大 量 引用 ， 
引用 者 不 乏 惠 普 ,施乐 .谷歌 等 大 企业 。 采 用 路 径 依 赖 
的 方法 识别 新 兴 技术 则 不 容易 及 时 发 现 这 些 颠 覆 原 有 
技术 轨道 的 研发 。 新 兴 技 术 出 现 早 期 的 最 基本 特征 是 
激进 的 创新 性 ” ,其 形成 初期 往往 与 主流 技术 范式 具 
有 较 低 的 相似 度 和 关联 性 ” ,从 而 呈现 出 一 种 “ 离 群 ” 
状态 。 从 “ 离 群 点 ”的 视角 出 发 ,能 够 更 准确 地 反映 新 
兴 技 术 在 形成 初期 的 状态 。 
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目前 ,基于 “ 离 群 点 "视角 的 新 兴 技 术 识别 研究 较 
少 ,已 有 的 研究 主要 采用 专利 数据 通过 识别 离 群 专利 
来 预测 新 兴 技 术 "-""。 这 些 研究 从 “ 离 群 点 "的 视角 
做 出 了 有 价值 的 探索 ,然而 仍 存在 一 些 局 限 性 :使 用 
引文 看 合 的 方法 计算 专利 的 相似 度 , 从 而 得 到 与 主流 
技术 相似 度 较 低 的 离 群 专利 ,缺乏 对 专利 文本 语义 
信息 的 理解 ,计算 的 相似 度 不 够 准确 ;@ 基 于 专利 指标 
和 专家 判断 的 预测 方法 成 本 高 . 耗 时 长 。 数 据 驱动 
的 深度 学 习 方法 可 以 在 保证 预测 效果 的 同时 ,大 幅 提 
高 预测 效率 ,降低 预测 成 本 ,实现 从 海量 专利 中 快 
速 , 准 确 地 识别 新 兴 技 术 。 

从 “ 离 群 点 "的 视角 ,笔者 采用 深度 学 习 方 法 构建 
基于 词 向 量 和 深度 神经 网 络 (deep neural networks, 
DNN) 的 新 兴 技 术 预 测 模型 。 首 先 使 用 BERT 预 训练 
模 弄 将 专利 文本 向 量化 ,基于 语义 相似 度 构建 专利 相 
SRA ,识别 出 网 络 中 的 离 群 点 作为 备 选 新 兴 技 术 ; 
然 局 ,使 用 DNN 模型 学 习 离 群 专利 的 各 项 指标 与 技术 
影 而 力 大 小 之 间 的 关联 关系 ;最 后 ,利用 该 关系 模型 巴 


关注 而 在 未 来 可 能 产生 巨大 影响 的 离 群 专利 ， 
加 项 测 新 兴 技 术 。 与 此 同时 ,本 研究 以 数控 系统 领 
证 案例 ,验证 方法 的 有 效 性 。 


人 传统 的 新 兴 技 术 预 测 主要 依靠 专家 知识 ,比如 德 
RAE p \ 层 次 分 析 法 (Analytic Hierarchy Process, 
中 ,提出 了 许多 用 于 描述 新 兴 技 术 特 征 的 专利 指 
标 “-”。 其 中 一 部 分 指标 不 会 随时 间 的 推移 而 改变 ， 
如 IPC 数量 ”发 明 人 数量 、 非 专利 文献 引用 
等 。 还 有 一 部 分 指标 随时 间 推 移 会 发 生变 化 ,如 前 向 
引用 ,专利 修改 次 数 等 。 然 而 仅 采用 这 些 方法 难 
以 预测 复杂 的 技术 增长 与 应 用 扩张 ” 。 近 年 来 ,计算 
能 力 的 提升 使 得 “数据 驱动 ”成 为 可 能 ,与 此 同时 , 随 
着 人 工 智 能 技术 的 发 展 ,基于 机 器 学 习 和 深度 学 习 的 
新 兴 技 术 预 测 方法 引起 了 广泛 关注 。D. Kong 等 以 
工业 机 器 人 领域 为 例 , 使 用 结合 专家 知识 的 机 器 学 习 
方法 识别 高 质量 专利 ,分 析 技术 创新 缺口 ” ; 周 源 等 
以 生物 信息 领域 为 例 ,结合 引用 网 络 聚 类 与 隐 含 狄 利 
克 雷 分 布 (Latent Dirichlet Allocation , LDA ) 模型 识别 新 
兴 技 术 领 域 融合 演化 过 程 。 相 比 机 器 学 习 , 深度 学 习 
具有 更 复杂 的 模型 结构 ,模型 效果 更 好 "| S. Hassan 


等 使 用 包含 64 维 指标 的 样本 数据 进行 引文 重要 性 预 
JU ,发 现 深度 学 习 模 型 对 高 维 指标 的 预测 效果 比 机 器 
学 习 模 型 更 好 ” Y. Zhou 等 针对 专利 数据 量 有 限 的 
问题 ,提出 一 种 基于 数据 增强 与 深度 学 习 的 新 兴 技 术 
预测 方法 。 

专利 是 识别 新 兴 技 术 的 重要 数据 来 源 "”。 基 于 
专利 数据 的 新 兴 技 术 识 别 研究 对 技术 的 定义 分 为 两 
类 :中 从 技术 角度 出 发 ,将 “一 项 技术 ”定义 为 属于 同 
一 个 IPC 或 者 使 用 聚 类 方法 划分 到 同一 簇 团 的 所 有 专 
fi, Y. Geum 等 通过 分 析 属 于 各 IPC. 的 专利 特征 来 预 
WAXER G. Kim 和 本 Bae 将 专利 文本 聚 类 , 然 
后 分 析 每 个 徐 团 中 专利 的 前 向 引用 、 同 族 专利 ,独立 要 
求 等 指标 以 识别 新 兴 技 术 "” ;Y，Zhou 等 提出 一 种 半 
监督 主题 聚 类 模型 ,以 3D 打印 领域 为 例 ,通过 对 簇 团 
形成 句子 级 的 语义 描述 识别 新 兴 技 术 ”。@ 回 从 专利 
的 角度 出 发 ,把 一 项 专利 看 作 一 个 理论 焦点 (theoreti- 
cal focal point) , 旨 在 通过 识别 高 影响 力 专利 发 现 新 兴 
技术 。 侯 建华 和 朱 晓 清 以 固体 氧化 物 燃 料 电池 技术 为 
例 , 从 技术 发 展 趋势 .技术 成 熟 度 和 演化 方向 3 个 方面 
构建 专利 指标 ,通过 CiteSpace 中 的 Sigma 指标 进行 技 
术 预 测 ” ;C. Lee 等 结合 多 种 专利 指标 ,使 用 机 器 学 
习 方 法 评估 专利 价值 ,从 而 预测 新 兴 技 术 "”]。 

笔者 采用 对 技术 的 第 二 类 定义 ,认为 每 项 专利 代 
表 一 项 技术 研究 焦点 。 使 用 文献 计量 方法 从 专利 中 提 
取 技 术 特 征 ,使 用 深度 学 习 模 型 预测 其 未 来 发 展 成 为 
新 兴 技 术 的 可 能 性 。 

2.2 BREPAR 

MAHER S — A E E E E E E RS e I ,这 
意味 着 新 兴 技 术 较 大 可 能 与 已 有 技术 具有 极 强 异 质 
性 。 基 于 此 ,有 学 者 指出 识别 新 兴 技 术 的 过 程 应 该 更 
加 关注 “ 离 群 专利 ”"-"”。 离 群 专利 所 代表 的 技术 极 
有 可 能 引起 技术 范式 的 转变 B. S. Aharonson 和 
M. A. Schilling 认为 离 群 专利 相 较 于 其 他 专利 更 有 可 
能 发 展 成 为 新 兴 技 术 , 在 专利 分 析 过 程 中 舍 去 离 群 专 
利 将 造成 严重 的 信息 丢失 " 。 

现 有 研究 中 , 离 群 专利 的 识别 主要 基于 两 种 方法 : 
引文 耦合 与 文本 相似 度 。K. Song 等 认为 拥有 更 多 共 
引 关 系 的 专利 相似 度 更 高 ,提出 一 种 基于 专利 引文 草 
合 的 方法 识别 离 群 专利 ” ; 曹 艺 文 等 则 认为 专利 引用 
本 身 会 回避 相似 专利 以 避免 对 自身 的 创新 性 造成 威 
胁 , 仅 使 用 专利 引用 信息 判断 专利 相似 度 具有 一 定局 
p ;J. Yoon Ñ K. Kim 提出 一 种 基于 SAO 的 语义 
向 量 计算 方法 ,基于 专利 的 语义 相似 度 得 到 离 群 专 
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利 "。 基 于 语义 的 相似 度 计算 方 法 更 加 精确 ,然而 由 
于 SAO 存在 运算 效率 低 .语义 混淆 等 问题 难以 在 大 规 
模 数 据 中 应 用 "" S Y. Zhang 等 使 用 词 向 量 方法 从 大 
量 文本 中 提取 潜在 语义 信息 ,发 现 深度 学 习 在 大 规模 
文本 信息 提取 任务 中 具有 较 好 表现 J. Devlin 等 提 
出 BERT 模型 ,能 够 大 幅 提 升 现 有 语义 表示 方法 的 性 
能 25 。 笔 者 将 使 用 BERT 模型 提取 专利 文本 信息 , 基 
于 专利 的 文本 相似 度 识 别离 群 专利 。 

综 上 所 述 , 从 离 群 专利 的 视角 对 新 兴 技 术 进 行 巴 
测 是 一 种 有 效 途 径 , 能 够 较 早 地 发 气 不 易 被 察觉 的 技 
术 点 ,而 深度 学 习 方法 在 文本 信息 提取 以 及 预测 任务 
中 都 具有 优越 性 能 。 笔 者 将 在 此 基础 上 从 离 群 专利 的 
视角 利用 深度 学 习 方 法 对 新 兴 技术 进行 预测 。 

3 SAADE 


28m 


CO 1 展示 了 笔者 提出 方法 的 整体 流程 , 共 分 为 5 
个 名 要 步骤 :专利 数据 获取 ;使 用 词 向 量 模型 将 专 
科 组 据 进行 文本 向 量化 ,根据 文本 相似 度 构建 专利 相 
似 麻 网 络 ,第 选 出 离 群 专利 作为 备 选 新 兴 技术 ;@@ 使 用 
交错 计量 方法 从 专利 数据 提取 能 体现 备 选 技术 早期 特 


pa 


委 的 各 项 指标 ,并 评估 备 选 技术 未 来 的 技术 影响 力 ; 


(使 用 深度 学 习 模 型 拟 合 专利 指标 与 未 来 技术 影响 力 
之 间 的 关系 ;() 模 型 性 能 评估 。 
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图 1 方法 整体 流程 


获取 离 群 专利 

从 专利 数据 库 中 获取 到 目标 领域 内 的 所 有 专利 
后 ,需要 采取 一 定 策略 来 识别 离 群 专利 。 如 图 2 所 示 ， 
在 专利 相似 度 网 络 中 ,一 篇 专利 为 一 个 节点 ,节点 之 间 
是 否 有 连 线 取决 于 两 个 专利 节点 的 相似 度 。 离 群 专利 
即 专利 相似 度 网 络 中 与 其 他 专利 节点 都 没有 连接 的 
"BERT o 


3.1 


N 

"E" 

> | 
- 专利 1 
"t 专利 2 
c = 
"== 专利 4 
c BERT 模 型 
FI > 专利 5 
D, 德 温 特 (DD 


专利 数据 


专利 相似 度 网 络 


2 离 群 专利 获取 


离 群 专利 的 获取 分 为 以 下 4 步 : 四 对 下 载 的 每 篇 
专利 使 用 BERT 预 训练 模型 转化 为 n 维 向 量 表示 ;@) 
计算 专利 两 两 之 间 的 相似 度 ;@ 以 专利 为 节点 ,相似 度 
TT BRE 所 的 专利 间 形 成 连 线 ,构建 专利 相似 度 网 络 ; 
@ 和 筛选 出 专利 相似 度 网 络 中 没有 连 线 的 节点 , 即 为 离 
群 专利 。 

将 文本 向 量化 的 过 程 可 以 称 之 为 编码 ,而 BERT 
预 训练 模型 ”是 一 种 有 效 的 基于 深度 学 习 的 编码 
器 , 相 较 传 统 基 于 词 频 的 方法 ,BERT 模型 还 考虑 了 单 


词 间 的 关联 关系 ,因此 能 够 提取 更 全 面 的 文本 信息 。 
BERT 预 训练 模型 的 输入 为 专利 文本 ,每 一 项 文本 数据 
会 被 拆 解 成 3 个 部 分 ,如 公式 (1) 所 示 : 

Xoni = Tono + Son +P ono AX) 

第 1 部 分 是 token embedding , 携带 有 文本 中 词语 
自身 的 含义 ;第 2 部 分 是 segment embedding, ,用 于 表征 
长 文本 中 句子 与 句子 之 间 的 上 下 文 关系 ;第 3 部 分 是 
position embedding ,用 于 表征 词语 之 间 的 顺序 关系 。 这 
3 个 部 分 进行 组 合 后 共同 作为 BERT 模型 的 输入 ,用 于 
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编码 。 

由 于 在 文本 信息 分 析 过 程 中 ,不 同 词语 的 重要 性 
可 能 不 同 ,所 以 在 编码 过 程 中 ,BERT 引入 了 多 头 自 注 
意 力 机 制 (multihead self-attention mechanism ) , 提高 一 
些 关 键 词语 在 分 析 过 程 中 的 权重 ,进而 提高 编码 的 准 
确 性 。 首 先 对 输入 X,,, 进 行 线性 变化 ,得 到 3 个 矩阵 
QK V ,分 别 为 每 个 单词 的 查询 向 量 、 键 向 量 以 及 值 向 
量 构成 的 和 矩阵。 具体 实施 过 程 通过 定义 3 个 矩阵 W, 
We Wy, 558 A X, ARIER, Bl Q = 和 Wos K = X,, 
Wks V =X um Wyo 

自 注 意 力 机 制 的 实施 过 程 如 公式 (2) 所 示 : 


QK y 公式 (2) 


attention( Q ,K,V) = sofimax( 


本 其 中 ,QK 表示 当前 单词 与 句子 其 他 部 分 的 关联 
FEE d, 为 QK 的 向 量 维 数 。softmax 后 的 值 即 文本 中 
每 位置 单词 的 权重 , 与 值 向 量 和 矩阵 V 相 乘 即 得 到 一 
中 所 有 单词 加 权 后 的 向 量 表示 。 

忆 多 头 注意 力 机 制 即 为 同时 实施 多 个 注意 力 机 制 ， 
将 移 个 注意 力 机 制 的 结果 进行 合并 ,完成 编码 。 过 程 
RRG) 所 示 : 

a = feed ( W, * 
XQ) tX 


c 


上 


multihead attention ( Q, K, V) + 
公式 (3 ) 

CNI ETA s 

VB LY, AT £7, feed (x) 为 前 向 传播 过 程 ， 


URS RE ere He EGIEGHAOE L. 为 全 连接 层 的 权重 


-三 上 述 过 程 完成 了 一 次 编码 ,通过 多 次 编码 (将 7, 
FVE A XL) 可 以 得 到 最 终 的 编码 结果 , 即 专利 文本 
中 每 一 个 词 映射 为 n 维 向 量 ,对 文本 中 每 一 个 词 的 纺 
码 结果 进行 加 和 ,得 到 专利 文本 的 向 量 表示 。 
专利 相似 度 使 用 余弦 相似 度 进 行 计算 。 对 于 两 个 
n 维 专利 向 量 % = (x ux us y m Oros ， 
计算 方法 如 公式 (4) Bn s 
EXEC _ 公 式 (4) 
Jota s uy qu 
3.2 离 群 专利 指标 提取 与 技术 影响 力 评估 
3.2.1 ” 离 群 专利 指标 提取 
在 文献 计量 领域 有 很 多 描述 新 兴 技术 的 专利 指 
标 。 如 表 1 所 示 , 本 研究 使 用 5 类 共 11 项 指标 对 离 群 
专利 各 方面 特征 进行 测度 。 
(1) 新 颖 性 。 新 颖 性 由 技术 创新 性 (technological 
originality , TO) 以 及 先 验 知识 量 (prior knowledge , PK ) 


cos(0) = 


R1 专利 指标 及 描述 


维度 指标 描述 
新 颖 性 技术 创新 性 (TO) 引用 专利 的 领域 集中 度 
先 验 知识 量 (PK) 后 向 引用 次 数 
发 展 速度 技术 生命 周期 (TCT) 引用 专利 平均 年 龄 
知识 密度 科学 知识 量 (SK) 非 专 利文 献 引用 
应 用 范围 技术 范围 (TS) 专利 所 属 类 别 数 
商业 范围 (CS) 同族 专利 数量 
独立 权利 要 求 (PCID ) 独立 权利 要 求 数 
从 属 权利 要 求 (PCD) 从 属 权 利 要 求 数 
发 展 能 力 专利 权 人 合作 程度 (COL) ”多 个 专利 权 人 则 为 1 ,否则 为 0 
发 明 人 数量 (INV) 发 明 人 数量 
专利 权 人 能 力 (TKH) 专利 权 人 发 表 总 专利 数 


表示 。 技 术 创 新 性 描述 专利 参考 其 他 技术 领域 的 多 样 
性 程度 ,专利 越 广泛 地 结合 不 同 领 域 的 技术 思想 ,就 越 
可 能 产生 高 价值 的 技术 发 明 “-”。 先 验 知识 描述 专 
利 对 其 他 技术 的 参考 程度 ,专利 引用 其 他 专利 越 多 ,其 
新 颖 性 和 商业 价值 就 越 低 ” 

(2) 发 展 速度 。 发 展 速度 由 技术 生命 周期 (tech- 
nology cycle time,TCT) 表示 。 技 术 生 命 周期 能 够 表征 
技术 先 验 知 识 的 新 旧 程 度 以 及 发 展 快慢 ,从 而 反映 出 
技术 的 发 展 速度 ”” 。 

(3) 知 识 密度 。 知 识 密度 由 专利 中 的 科学 知识 量 
(scientific knowledge, SK) 表示 。 专 利 中 的 知识 密度 越 
大 ,就 越 可 能 带 来 创新 性 高 影响 力 的 技术 发 明 ”” 。 

(4) 应 用 范围 。 应 用 范围 由 技术 范围 (technologi- 
cal scope, TS) .商业 范围 (commercial scope, CS ) 以 及 专 
利 保护 范围 中 的 独立 权利 要 求 ( protection. coverage de- 
scribed in independent claims, PCID ) , 从 属 权 利 要 求 
( Protection coverage described in dependent claims ,PCD ) 
表示 。 技 术 范 围 表 征 专利 在 技术 领域 的 履 盖 范围 。 有 
研究 表示 专利 所 属 的 专利 族 规模 越 大 , 越 可 能 具有 高 
商业 价值 ,因此 专利 中 的 同族 专利 信息 可 测度 专利 
在 商业 层面 的 应 用 范围 。 独 立 权 利 要 求 与 从 属 权 利 要 
求 体 现 了 专利 受 保护 的 范围 。 

(5 ) 发 展 能 力 。 发 展 能 力 由 专利 权 人 合作 程度 
( collaboration , COL) , Az Hj] A Zt Œ (inventors , INV ) 和 专 
TIR A BE 7J (total know-how, TKH) 表示。 专利 权 人 的 
合作 对 专利 价值 有 显著 积极 的 影响 “-” ,多 发 明 人 的 
专利 同样 具有 更 高 价值 “ 。 专 利 权 人 的 能 力 水 平 将 
会 影响 技术 的 未 来 发 展 以 及 影响 力 。 

3.2.2 离 群 专利 的 技术 影响 力 分 类 标签 

专利 的 前 向 引用 数 是 使 用 最 广泛 的 技术 影响 力 评 

估 方 法 , 它 反映 出 专利 所 代表 的 技术 对 之 后 技术 发 展 


o 
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的 贡献 程度 。 一 项 技术 被 越 频 繁 . 越 广泛 地 应 用 到 未 
来 技术 之 中 ,意味 着 它 具 有 越 大 的 技术 影响 力 ””。 
因此 当前 年 份 下 载 的 专利 数据 中 ,专利 的 前 向 引用 次 
数 可 以 表征 自 该 专利 被 发 表 以 来 ,到 目前 为 止 的 技术 
影响 力 。 笔 者 将 技术 影响 力 分 为 高 , 低 两 个 等 级 ,根据 
样本 前 向 引用 次 数 分 布 情况 设 定 一 个 临界 值 , 认 为 引 
用 次 数 低 于 临界 值 的 专利 为 低 技术 影响 力 样 本 TLO, 
高 于 临界 值 的 专利 为 高 技术 影响 力 样本 TL1。 
3.3 基于 离 群 专利 的 新 兴 技 术 预 测 
使 用 离 群 专利 预测 新 兴 技 术 的 关键 是 构建 出 离 群 
数据 集 


2011-2015 


DNN 模 型 


专利 指标 与 其 未 来 影响 力 之 间 的 关系 模型 。 由 于 一 个 
技术 领域 往往 会 有 大 量 离 群 专利 , 且 描 述 备 选 新 兴 

术 的 专利 指标 较 多 ,因此 笔者 使 用 深度 学 习 模 型 DNN 
来 拟 合 专利 指标 与 技术 影响 力 之 间 的 关系 。 将 专利 数 
据 集 分 为 如 图 3(1) 所 示 两 部 分 :使 用 过 去 5 - 10 年 的 
专利 数据 作为 数据 集 ,评估 技术 在 当前 的 影响 力 ,构建 
专利 指标 — 技术 影响 力 关 系 模 型 ;再 使 用 构建 的 关系 
模型 ,使 用 近 5 年 的 专利 数据 预测 当前 技术 未 来 的 技 

影响 力 。 


标签 (技术 影响 力 ) 


(1) 


v:202304.00500v1 


.一 如 图 3 所 示 ,DNN BUSH rb d A Ja 隐藏 层 以 及 输出 
y. BEA A Ds REE FI HO ERR IR ht, f i OS 
预测 的 技术 影响 力 分 类 ,隐藏 层 的 激活 函数 均 使 用 
Rsw。， 数 据 集中 每 个 样本 均 为 12 维 向 量 ,其 中 前 11 
EORR I 3.2.1 节 方 法 计算 的 离 群 专利 指标 ,最 后 一 
维 为 根据 3.2.2 节 方 法 得 到 的 技术 影响 力 分 类 标签 。 

DNN 模型 的 构建 分 为 训练 和 测试 两 个 步 又: 

在 模型 训练 过 程 中 ,各 隐藏 层 参 数 将 初始 化 为 符 
合 正 态 分 布 的 随机 值 ,输入 训练 集 样本 ,然后 将 每 个 训 
练 样本 的 预测 结果 与 实际 结果 标签 进行 对 比 ,使 用 交 
又 炉 计算 损失 函数 以 更 新 各 隐藏 层 的 参数 , 当 损 失 函 
数 收敛 到 一 定 值 则 模型 参数 优化 完成 ,停止 训练 。 

模型 测试 过 程 使 用 测试 集 评估 模型 在 未 知 样本 中 
的 预测 效果 。 评 估 模 型 性 能 的 指标 使 用 准确 率 ( accu- 
racy)、 精 确 率 ( precision ) 召回 率 (recall ) 以 及 下 ]- 
score。4 个 指标 的 计算 方法 如 公式 (5) - (8)。 其 中 ， 
准确 率 评估 模型 预测 结果 整体 的 正确 性 。 精 确 率 评估 
模型 的 查 准 率 , 召 回 率 评估 模型 的 查 全 率 。F1-score 综 
合 考虑 了 精确 率 以 及 召回 率 ,是 两 者 的 调和 平均 数 ,可 
以 体现 模型 对 不 同 分 布 情况 样本 的 预测 效果 ,是 分 类 


2) 


预测 结 
-十 TLI | …> | 新 兴 技术 
->| TLO 


6) 


3 ”基于 专利 指标 - 技术 影响 力 的 新 兴 技 术 预测 模型 


问题 中 衡量 模型 整体 性 能 的 常用 指标 。 


Accuracy =N AR (5) 
Recall = PII zm 公式 (6) 
Precision = zs 公式 (7) 

pl -score -2 x Precision x Recall (gs 


Precision + Recall 

在 上 述 公式 中 ,P 为 正 样本 ,N 为 负 样本 ,TP TN 

分 别 为 为 判断 正确 的 正 样本 和 人 负 样 本 ,FP、FN 分 别 为 
判断 错误 的 正 样 本 和 负 样 本 。 


4 研究 结果 


4.1 数据 收集 与 离 群 专利 识别 

笔者 选择 数控 系统 技术 领域 验证 方法 的 有 效 性 。 
数控 系统 作为 实现 制造 业 企业 数字 化 转型 ,国家 智能 
制造 战略 目标 的 关键 技术 ,预测 该 领域 未 来 可 能 出 现 
的 新 兴 技 术 ,对 企业 和 国家 优化 技术 布局 .把握 发 展 机 
遇 有 着 重要 意义 。 

本 次 实验 从 德 温 特 ( Derwent Innovation , DI) 数据 
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库 根据 制定 的 数控 系统 领域 检索 式 获取 了 该 领域 中 优 
先 权 年 在 2011 年 1 月 1 日 至 2020 年 10 月 30 日 共 
58 021 条 专利 数据 。 其 中 2011 -2015 年 的 22 418 条 专 
利 数据 用 于 构建 专利 指标 - 技术 影响 力 关 系 模型 ， 
2016 -2020 年 的 35 603 条 专利 用 于 对 2025 年 数控 系 
统领 域 新 兴 技 术 的 预测 。 
离 群 专利 第 选 过 程 首 先 使 用 python 的 transformers 
库 中 的 BERT 模块 对 专利 文本 进行 编码 ,模型 包含 两 
个 编码 层 , 多 头 自 注意 力 机 制 头 数 为 8 头 ,最 终 将 每 条 
专利 文本 映射 为 128 维 向 量 ,并 使 计算 两 两 专利 向 量 
的 余弦 相似 度 。 接 下 来 ,将 min-max 归 一 化 后 的 文本 
相似 度 高 于 阔 值 的 专利 之 间 形 成 连接 ,分 别 构建 2011 
-2015 和 2016 - 2020 两 个 专利 相似 度 网 络 ,并 分 别 得 
选 贞 两 个 时 间 段 内 的 离 群 专利 。 现 有 的 离 群 专利 相关 
研究 主要 通过 实验 的 方法 选取 合适 的 相似 度 立 
ES. AEE 0.5 时 ,2011 - 2015 年 离 群 
专利 过 少 ,这 可 能 会 遗漏 大 量 的 颠覆 现 有 技术 轨道 的 
BORSUR IURIS RI 4 BU (8 0.7 时 ,2011 -2015 年 
离 群 专利 过 多 ,这 可 能 会 引入 大 量 干扰 ,降低 从 离 群 专 
月 识 别 新 兴 技术 的 效率 。 因 此 ,本 文 最 终 确 定 阔 值 
6, 其 中 2011 - 2015 年 共有 离 群 专利 2 747 $8, 
2016 - 2020 年 共有 离 群 专利 15 385 篇 。 这 些 离 群 专 
FIAJ 2020 年 2025 年 的 备 选 新 兴 技术 。 
4,28. 指标 提取 与 模型 训练 
AME» 指标 提取 
CAR 2.2.1 中 的 方法 对 2020 年 的 备 选 新 兴 技 术 
提 隐 专利 指标 以 及 技术 影响 力 ,形成 用 于 构建 关系 模 
更 的 样本 数据 集 。 数 据 集 共有 2 747 个 样本 ,其 中 每 
一 个 样本 表示 一 个 备 选 新 兴 技术 ,包含 12 维 数据 ,其 
中 前 11 维 为 专利 指标 ,最 后 一 维 为 技术 影响 力 标 签 。 
备 选 新 兴 技 术 在 各 专利 指标 及 技术 影响 力 上 的 表 
现 情况 如 表 2 所 示 。 整 体 来 看 ,样本 在 各 项 指标 上 的 
数值 跨度 均 较 大 ,因此 在 生成 4.2. 2 中 使 用 的 数据 集 
时 对 所 有 专利 指标 取 对 数 处 理 , 负 值 取 零 。 根 据 3.2.2 
节 , 笔 者 将 专利 划分 为 高 技术 影响 力 和 低 技术 影响 力 
两 类 ,其 中 技术 影响 力 TL. 的 衡量 方法 是 专利 的 前 向 引 
用 次 数 。 因 此 需要 对 专利 的 前 向 引用 次 数值 取 一 个 临 
界 值 以 划分 高 技术 影响 力 和 低 技 术 影响 力 。 高 技术 影 
响 力 专利 的 前 向 引用 大 于 10 是 比较 合理 的 值 ”。 笔 
者 采取 3o 准则 来 确定 准确 的 前 向 引用 数量 临界 值 : 首 
先 计算 专利 前 向 引用 次 数 的 均值 上 和 标准 差 c, 当 临 
界 值 为 均值 右 偏 一 个 o 时 ,其 值 为 16(&+a=16) , HI 
当 专利 的 前 向 引用 次 数 大 于 等 于 16 时 为 技术 影响 力 


为 高 ,小 于 16 时 技术 影响 力 为 低 。 
表 2 各 专利 指标 描述 性 统计 


变量 ”观察 值 数 量 均值 标准 差 最 小 值 ”最 大 值 
to 2 747 1.300 692 6. 850 224 0 173 
pk 2 747 9.942 119 64.42] 84 0 2 724 
tct 2 747 6.633 964 9.511 655 -0.7 257.1 
sk 2 747 3.195 486 24.246 04 0 1 092 
ts 2 747 2.746 269 2. 882 258 1 33 
es 2 747 2.310 885 3.212 123 1 102 

pcid 2 747 1.810 339 2. 190 839 1 55 
ped 2 747 7.825 992 7.803 692 0 80 
col 2 747 1.069 894 0.379 068 3 Í 13 
inv 2 747 3.596 287 2.567 181 0 20 
tkh 2747 148. 772 5 286.590 5 1 1 659 
tl 2 747 5.5132 87 9.559 799 0 158 


4.2.2. 模型 训练 

实际 中 ,尽管 每 年 均 有 大 量 技术 专利 产 出 ,只 有 少 
量 专利 能 够 在 未 来 获得 较 高 的 技术 影响 力 , 成 为 新 兴 
技术 。 在 本 文 4.2.1 中 得 到 的 离 群 专利 中 ,高 技术 影 
响 力 专利 数 与 低 技术 影响 力 专利 数量 之 比 仅 为 1:12， 
这 导致 训练 模型 的 样本 非常 不 平衡 ,模型 将 无 法 充分 
学 习 高 技术 影响 力 的 专利 特征 。 因 此 ,本 文 在 按照 7:3 
划分 训练 集 测试 集 后 ,在 训练 集中 复 用 正 样本 数据 ， 
使 得 用 来 构建 模型 的 训练 集中 正 负 样 本 相对 均衡 。 
笔者 基于 python 和 scikit-learn 构建 DNN RZ 
辑 回 归 (]logistic regression , LR ) 、 随 即 森 林 (random for- 
est, RF) 支持 向 量 机 (support vector machines ,SVM ) 模 
型 。 隐 藏 层 数 和 每 层 神经 元 个 数 是 DNN 模型 的 两 个 
关键 参数 ,隐藏 层 及 神经 元 数量 过 少 会 导致 模型 从 拟 
合 , 过 多 则 会 导致 模型 过 拟 合 , 均 无 法 得 到 理想 的 预测 
效果 。 笔 者 经 过 多 轮 实 验 得 到 的 DNN 最 佳 模型 由 3 
个 隐藏 层 构成 ,每 个 隐藏 层 包含 312 个 神经 元 ,每 个 节 
点 均 使 用 relu 激活 函数 ,优化 器 为 Adam, L2 正则 化 系 
数 为 0.000 1。 作 为 对 比试 验 的 LR 模型 RE 模型 和 
SVM 三 种 机 器 学 习 横 型 的 参数 选择 同样 经 过 多 轮 实 
验 ,其 中 LR 模型 在 正则 化 系数 为 1 时 效果 最 好 ,RF 在 
包含 7 个 深度 为 30 的 决策 树 时 性 能 最 佳 ,SVM 模型 在 
惩罚 系数 为 1, 核 函数 系数 为 0.001 时 性 能 最 好 。 

DNN 模型 与 LR,RF 和 SVM 三 种 对 比 模型 的 最 佳 
性 能 对 比如 表 3 所 示 。DNN 模型 在 各 项 指标 上 均 远 高 
于 LR RF 和 SVM 模型 ,这 意味 着 DNN 在 新 兴 技 术 预 
测 这 一 分 类 任务 中 的 整体 性 能 更 好 ,其 不 仅 能 够 更 全 
面 地 识别 出 未 来 潜在 的 新 兴 技 术 , 尽 可 能 少 地 遗漏 重要 
的 新 兴 技 术 专利 ,从 而 避免 决策 者 错失 发 展 新 兴 技 术 的 
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机 会 ,又 具有 较 高 的 精度 ,能 尽 可 能 避免 将 非 新 兴 技 术 
误 判 为 新 兴 技 术 ,造成 不 必要 的 资源 浪费 。 实 验 结果 表 
明 DNN 模型 相 较 LR RF SVM 三 种 广泛 使 用 的 机 器 学 
习 模型 性 能 更 优 ,能 更 好 地 拟 合 指标 与 技术 影响 力 之 间 
复杂 的 非 线性 关系 ,更 有 效 地 进行 新 兴 技术 预测 。 

X3 DNN,RF,.SVM,LR 模型 的 性 能 对 比 


模型 准确 率 /% 精确 率 /% 召回 率 /% Fl -score/96 
DNN 95.82. 93. 73 98. 75 96.17 
RF 84.38 82.71 87.85 85.2 
SVM 68.57 66. 46 73.42 69.77 
LR 67.31 70.55 63.43 66.8 


4.3 ”新 兴 技 术 预 测 与 结果 分 析 
4.3.1 新 兴 技 术 预 测 
= 使 用 训练 完成 的 DNN 模型 ,使 用 2016 - 2020 年 


新 兴 技 术 主 题 


的 离 群 专利 作为 备 选 新 兴 技 术 进 行 数控 系统 领域 
2025 年 的 新 兴 技 术 预 测 。 计 算 2020 年 的 15 385 篇 离 
群 专利 的 指标 ,作为 DNN 模型 输入 ,得 到 各 备 选 新 兴 
技术 2025 年 的 技术 影响 力 预 测 结果 。 在 15 385 项 备 
选 新 兴 技 术 中 ,预计 在 2025 年 具有 高 技术 影响 力 的 有 
348 项 , 占 总 离 群 专利 数 的 2.26% 。 

预计 在 2025 年 将 具有 高 技术 影响 力 的 离 群 专利 ， 
即 为 预测 的 新 兴 技 术 。 笔 者 使 用 LDA 模型 对 新 兴 技 
术 专 利 进行 主题 分 析 , 结 合 困惑 度 指 标 ” 选择 主题 个 
数 ,当主 题 数 为 5 时 ,困惑 度 指标 下 降 趋 于 平缓 , 且 各 
主题 之 间 区 分 度 较 好 。 对 5 个 技术 主题 提取 关键 词 并 
绘制 词 云 ,结果 如 表 4 所 示 : 


mA ”数控 系统 领域 2025 新 兴 技 术 主题 提取 


主题 关键 词 


nm 


主 感知 与 连接 


202304.00500v 


-chinaXiv 


工艺 参数 优化 


shaft 
3 外 部 传感器 


apparatus server 
analysis graphics mod u le terae 
transmission sian a [block electronic 
processor multiple 
cloudresource 


^" network 


tem pe rature;. 
heating flowy ate rheat portion 


"SED SOT" 


interface. 
automatic 


communication 
simulation 


station remote 


monitoring 


performance 
function 


detecting parameter. 


testflow process State agortnm 
error model 
image 


CU rrentspeed iid 
operationmii 
controller 


motion 
synchronous 


structure 
fuel Open energy 


production 


e cooling 


surtace 
pressure 
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ChinaXiv 合 作 期 刊 


序号 新 兴 技 术 主 题 


主题 关键 词 


( 续 表 4) 


4 误差 补偿 


特种 材料 加 工 


protection 
measuring 


mode motor unes 
| 
controller closed55. optical 
arive Current | OO signal source 
Sge voltage CirCUit rotating 
i feedback 
aat powe [me 
su 


frequency 


concentration 
membrane 


ratio substrate olymer 
material aCld zincreaction 


binding| ig ht | aye l'stream metal 


hydrocarbon" resin components 


oligonucleotide 
probe 


0500v1 


production 


< 十 根据 主题 提取 结果 ,数控 系统 领域 2025 年 的 新 兴 
主要 有 自主 感知 与 连接 .工艺 参数 优化 、 外 部 传 感 
差 补 偿 和 特种 材料 加 工 5 个 方向 :数控 系统 作 

并 网 床 的 “大 脑 ”, 其 自主 感知 与 连接 技术 是 实现 智能 

机 床 的 关键 。 目 前 已 有 的 自主 感知 技术 基于 “指令 域 

示 统 器 "和 “指令 域 分 析 方 法 "“"。 在 连接 技术 方面 ， 

奖 生 .德国 和 中 国 已 先后 提出 了 数控 机 床 互 联通 信 协 

议 实 现 制造 过 程 中 的 信息 流传 输 P; 。 国 内 外 企业 也 

已 相继 推出 了 数控 系统 云 服务 平台 ,虽然 当前 这 些 平 

台电 要 停留 在 技术 层面 上 ,但 已 呈现 出 应 用 到 智能 机 

床上 的 潜力 与 趋势 5 。 回 在 数控 加 工 中 工艺 参数 的 

优化 至 关 重 要 ,它们 影响 着 零件 的 加 工 质量 效率、 机 

床 和 刀具 等 制造 资源 的 寿命 等 。 相 较 传统 基于 切削 稳 

定性 等 的 建 模 字 ] ,基于 大 数据 的 建 模 结合 神经 网 络 等 

人 工 智能 算法 ,对 进 给 速度 .主轴 功率 等 参数 进行 调 

整 ,优化 加 工 工艺 5 。@“ 互 联网 + 传感器 ”是 互联 网 

+ 机 床 的 典型 特征 ,外 部 传感器 加 强 了 对 机 床 加 工 状 

态 的 感知 能 力 ' ,数控 系统 通过 采集 机 床 的 温度 、 压 

力 等 数据 ,并 对 采集 的 数据 进行 分 析 与 处 理 , 实 现 机 床 

加 工 过 程 的 自 适 应 控制 。@ 误 差 补偿 是 数控 系统 提供 

加 工 质量 保障 和 提升 的 重要 功能 ,包括 热 误 差 补偿 、 空 

间 几 何 误差 补偿 等 。 数 控 系 统 通 过 机 床 各 部 位 传 

感 器 的 反馈 数据 ,结合 深度 学 习 等 模型 进行 预测 误 

差 并 进行 补偿 ,实现 全 闭环 控制 。@ 随 着 航空 航天 IA 

车 .医疗 等 领域 对 具有 硬 . 脆 、 热 敏 . 耐 腐蚀 等 性 能 的 特 


种 材料 制品 的 需求 日 益 增长 ,结合 激光 加 热 \ 电 化 学 
等 1 方式 的 新 型 材料 成 型 加 工 技术 技术 蚂 待 发 展 , 基 
于 增 材 制造 的 仿生 新 材料 合成 方法 也 极 具 潜力 。 
4.3.2 预测 结果 分 析 

用 于 预测 的 专利 指标 可 以 看 作 新 兴 技 术 的 早期 特 
征 。 为 了 进一步 分 析 各 特征 在 新 兴 技 术 形 成 过 程 中 的 
作用 ,笔者 对 识别 出 新 兴 技 术 与 非 新 兴 技 术 在 各 个 专 
利 指标 维度 上 进行 对 比 ,其 概率 密度 分 布 结 果 如 图 4 
所 示 。 其 中 浅 色 、 深 色 分 别 为 新 兴 技 术 和 非 新 兴 技 术 
在 各 早期 特征 上 的 分 布 情况 。 

由 图 4 可知 ,预测 出 的 新 兴 技 术 在 PK( 先 验 知识 
量 ) TCT( 技 术 生命 周期 ) ,TS( 技 术 范 围 ) .CS( 商 业 范 
Hj) JNV( 发 明 人 数量 ) 以 及 TKH( 专 利 权 人 能 力 )6 个 
指标 的 分 布 上 与 非 新 兴 技 术 有 明显 差异 。 技 术 融 合 是 
新 兴 技 术 的 重要 产生 方式 ,因此 从 属于 多 个 技术 类 别 ， 
有 具 有 和 较 大 技术 范围 的 专利 更 有 潜力 成 为 未 来 的 新 兴 
术 。 同 时 ,领域 内 外 有 具有 较 高 能 力 的 专利 权 人 合作 ,以 
及 多 企业 机 构 合作 能 进一步 提升 技术 创新 质量 。 另 
外 ,具有 更 高 的 商业 价值 将 提升 专利 投入 实际 应 用 的 
可 能 性 ,进而 促进 该 技术 的 发 展 。 新 兴 技 术 具 有 更 多 
的 先 验 知识 并 且 基 于 更 早 的 引用 文献 ,意味 着 发 展 新 
兴 技 术 不 能 依靠 突 发 奇想 ,而 需要 更 深入 的 领域 调研 ， 
随 着 技术 的 发 展 ,一 些 早期 的 技术 难题 或 许可 以 得 到 
解决 。 新 兴 技 术 在 PCID (独立 权利 要 求 ) .PCD( 从 属 
权利 要 求 ) 两 个 指标 上 也 略 倾向 于 高 于 非 新 兴 技 术 , 表 
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TO PK 


TS | CS 


TIE SK 
am. A: d. ll — 
PCID PCD 
Ad IW 
新 兴 技术 
非 新 兴 技术 


4 ”新 兴 技 术 与 非 新 兴 技 术 的 早期 特征 概率 密度 展示 


明 由 于 新 兴 技 术 的 创新 性 ,其 要 求 的 权利 保护 往往 更 
Zi, 

二 本 实证 案例 预测 了 数控 系统 领域 未 来 具有 潜力 的 
新 路 技术 方向 ,并 分 析 了 新 兴 技 术 形 成 的 关键 早期 特 
饲 -验证 了 笔者 提出 方法 的 有 效 性 ,对 数控 系统 领域 新 
3 抠 术 的 发 展 与 战略 布局 具有 指导 意义 。 


o 
Sept Lit 


所 和 者 从 离 各 专利 的 视角 出 发 采用 深度 学 习 方法 识 
A v oo 

,进而 构建 离 群 专利 指标 和 未 来 技术 影响 力 之 间 
的 姜 系 模型 ,通过 识别 领域 当前 的 离 群 专利 预测 未 来 
的 新 兴 技术 。 主 要 研究 结论 如 下 :@ 根 据 新 兴 技 术 的 
Em su 
ATUS, t Me Fo e ATUS ITI e DUE E T. 33 — L8 D 
XH T FRET BERT 预 训 练 模型 的 离 群 专利 识别 方 
法 6 痢 过 计算 专利 的 文本 相似 度 构建 相似 度 网 络 以 获 
取 与 原 有 技术 轨道 研究 主题 差异 较 大 的 离 群 专利 ;@ 
使 用 DNN 构建 离 群 专利 指标 与 技术 影响 力 之 间 的 关 
系 模型 ,对 未 来 具有 更 高 技术 影响 力 的 离 群 专利 进行 
识别 ,从 而 预测 潜在 的 新 兴 技 术 , 相 较 LR RF .SVM 等 
机 器 学 习 方法 效果 更 好 。 

笔者 从 离 群 专利 的 视角 出 发 应 用 深度 学 习 方 法 进 
行 新 兴 技 术 识别 ,是 现 有 新 兴 技 术 预 测 方法 研究 视角 
的 重要 补充 。 在 离 群 专利 识别 过 程 中 ,本 研究 充分 利 
用 了 专利 的 文本 信息 ,实现 了 更 有 效 的 相似 度 计算 方 
法 。 在 新 兴 技 术 预 测 中 , 拟 合 了 高 维 专利 指标 与 技术 
影响 力 之 间 复 杂 的 非 线性 关系 ,并 初步 分 析 了 各 专利 
指标 在 新 兴 技术 形成 过 程 中 的 作用 。 本 方法 时 间 成 本 
低 、 适 用 性 广 ,对 任意 选 定 的 技术 领域 均 可 使 用 并 快速 
定位 潜在 的 新 兴 技 术 。 此 外 ,本 文 识别 了 数控 系统 领 
域 的 潜在 新 兴 技 术 , 对 领域 内 企业 .政府 部 门 的 战略 布 


局 与 规划 具有 较 大 的 决策 支持 价值 。 

本 文 的 方法 依然 有 一 定 的 局 限 性 。 首 先 ,笔者 仅 
使 用 了 专利 数据 描述 了 新 兴 技 术 的 早期 特征 以 及 技术 
影响 力 ,主要 针对 技术 驱动 的 新 兴 技 术 预 测 ,未 来 还 可 
以 引入 社会 影响 力 、 商业 效 益 等 指标 从 而 实现 更 加 系 
统 的 预测 。 其 次 ,由 于 结构 较 复杂 ,深度 学 习 模 型 虽然 
可 以 准确 拟 合 出 复杂 指标 与 结果 之 间 的 关系 ,尚且 无 
法 深入 挖 气 各 指标 对 结果 的 影响 机 制 。 未 来 研究 可 以 
在 关系 模型 的 基础 上 ,进一步 发 掘 其 中 的 因果 机 制 , 加 
强 新 兴 技 术 预 测 结果 的 理论 意义 。 
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Abstract: | Purpose/significance | Due to the advanced nature of emerging technologies, they are often margin- 
alized at the initial stage of formation. Most of present researches forecast emerging technologies by analyzing the ma- 
instream technology development path, which would neglect some research that disrupts existing technology routes. 
By analyzing outlier patents that are less similar to the mainstream technologies in the field, it can identify and fore- 
cast the future emerging technologies more effectively. | Method/process | This paper presented an outlier patent i- 
dentification and emerging technology prediction method based on deep learning. Firstly, the Bert pre-trained model 
was used to construct the similarity network based on texts of patents and outlier patents identification. The relation- 
ship model between outlier patent indicators and technical influence was then built based on DNN model, thus reali- 
zing the fast and accurate emerging technology prediction using large-scale outlier patents. Finally, an empirical anal- 
ysis was conducted in the field of numerical control system with all patents applied in the last ten years obtained from 
DI database. | Result/conclusion | The result of empirical analysis in the field of numerical control system not only 
verifies the validity of the model, but also has important guiding significance to the formulation of national technology 
development policy and the technology layout of enterprises in related fields. 
outlier patents numerical control system 


Keywords: emerging technologies deep learning 


141 


